#síntesis de tareas

SeClaw: Síntesis de Tareas de Seguridad para Evaluar Agentes Autónomos

Descubre SeClaw, un framework que sintetiza tareas de seguridad para evaluar agentes LLM autónomos. Evaluación reproducible y basada en trayectorias.

BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.